查看原文
其他

论文推荐|[ AAAI2021] HiGAN:基于变长文本和解耦风格的手写数据合成方法(有源码)

马继钊 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍AAAI2021录用论文"HiGAN: Handwriting imitation conditioned on arbitrary-length texts and disentangled styles"。该论文提出了一种新颖的手写模仿生成对抗网络(HiGAN),可以根据任意文本内容生成长度可变的手写单词或文本行,并可以灵活控制生成图像的书写风格。 

图1 人类可以借助想象很容易地学会笔迹模仿

一、研究背景



通常,手写文字模仿任务有两方面的要求:(1)根据任意文本内容,合成多样化、逼真的书法图像; (2)模仿参考笔迹样本的书法风格(如文字歪斜、倾斜、圆度、连体、笔划宽度)。

如图1所示,人类可以通过想象快速学会这种手写模仿。具体地说,给出某种手写体的有限样本,人类可以很容易地从样本中模仿出书写风格,并通过想象将这种书写风格迁移到其它的单词或者文本行上。人类能做到这种想象,也许是因为人类能从给定的手写样本中解耦出书写风格和文本内容。

如果我们能教会计算机模仿这一过程,它们可能就能像人类一样模仿真实的笔迹。所以,这篇论文提出了一种新颖的手写模仿生成对抗网络(HiGAN),该模型可以根据任意文本内容生成长度可变的手写单词或文本行,并可以灵活控制生成图像的书写风格。

二、方法原理简述



该文模型主要由五个模块组成:

(1)可输出变长图像的生成器G,该模块可以根据任意文本内容生成变长的手写笔迹图片,并利用条件批归一化(CBN)将整张图片渲染为统一的书写风格;

(2)鉴别器D,该模块用以鉴别真实图片和合成的假图;

(3)风格编码器E,该模块可以从参考样本图片x中解耦出手写风格s,并且不需要显式地访问书写者ID;

(4)书写者识别器I,该模块用以区分笔迹图片属于哪个书写者,该识别器只能对训练集中的可见书写者的笔迹图像进行分类,而不能在测试时识别不可见书写者的笔迹。因此该识别器只在训练时使用,测试时被丢弃;

(5)文本内容识别器R,该识别器是一个预训练的文本识别器,它可以从输入的手写图像中预测出图像中包含的文本内容。由于训练数据只具有有限的语义信息,而本文任务中的输入文本是一个开放的语言域,所以作者将该识别器中包含原训练数据语义信息的RNN部分去掉。这可以阻止该识别器学习到一个被训练集限制的隐式语言模型,并有利于OOV词语的生成。

图2展示了HiGAN的结构及其训练和测试的过程,具体如下: 

图2  HiGAN整体结构及训练和测试过程

HiGAN的训练需要一个笔迹图像的集合X,笔迹图像对应的文本标签集合Y,以及相对应的书写者ID集合W。HiGAN的训练过程包括两个部分:(a)从真实样本x中解耦出风格s,并生成和真实图像难以区分的假图象;(b)在一个先验分布中随机抽取风格s来生成不同风格的手写图像。这两种不同的训练方法可以得到两种不同的对抗损失:

训练过程中总体的对抗损失是两个对抗损失之和: 

当最大化对抗损失时,对鉴别器D、文本内容识别器R、书写者识别器I进行优化: 

当最小化对抗损失时,固定鉴别器D、文本内容识别器R、书写者识别器I的参数,对生成器G和风格编码器E进行优化: 

其中λ控制不同损失函数的权重,所有的模块都是以端到端的方式从头开始训练。

三、主要实验结果及可视化结果



表1 生成效果定量比较结果 

表2 HiGAN合成数据对于识别任务的提升效果 

从表1的实验结果可以看出,HiGAN在生成图像视觉质量和模型规模两个方面都明显优于其他基于GAN的方法。表2所示结果证明了使用HiGAN的合成数据补充手写识别任务的训练集,可以提升识别器的性能。 

图3 随机风格合成:合成图像的风格是从先验正态分布中随机采样的

图4 参考风格合成:不同合成图像的风格是从参考样本图像中解耦出来的

图5 风格插值实验可视化结果

图6 手写文本内容编辑实验:从“Happy”到“Abcde”

每次只改变一个字母,并严格保留其书写风格

图3展示了HiGAN使用随即采样风格进行生成的可视化结果,可以看到HiGAN能够在字母之间产生自然的连笔。图4所示结果证明HiGAN成功得模仿了参考样本的书法风格。在图5所示风格插值实验中,可以看到手写图像在插值的条件下不断改变其书写风格,而文本内容保持严格不变。此实验证明了HiGAN具有在风格空间中的泛化能力,而不是记忆一些简单的视觉信息。与风格插值实验相对应,图6所示的文本编辑实验中,插值是在文本空间进行的,当每个词逐字母变化时,其书写风格保持严格不变,证明了HiGAN在文本空间中的泛化能力,并能够生成高质量的OOV单词。

四、总结和讨论



本文提出了一种新的手写模仿模型HiGAN。该模型可以根据任意文本内容生成多样化的、真实的手写图像,而不受任何预定义语料库和OOV单词的限制。HiGAN还可以从参考样本中提取书写风格,并灵活控制合成图像的书写风格。此外,作者还发现,HiGAN的合成数据可以用于补充数据集,从而提高手写识别任务的表现。

无论是定性的还是定量的比较,都证实了HiGAN在视觉质量和可扩展性方面优于竞争的GANs。然而,人类的笔迹风格是非常随意的,因此HiGAN在合成有意义的笔迹图像上确实存在局限。在未来的工作中,作者还计划进一步提高HiGAN生成图像的多样性和视觉质量。

五、相关资源



  • HiGAN论文地址:

    https://www.aaai.org/AAAI21Papers/AAAI-4279.GanJ.pdf

  • HiGAN开源代码地址:https://github.com/ganji15/HiGAN

参考文献



[1] Achint Oommen Thomas, A. R.; and Govindaraju, V. 2009. Synthetic handwritten CAPTCHAs. Pattern Recognition 42(12): 3365–3373. 
[2] Alec Radford, Luke Metz, S. C. 2013. Unsupervised representation learning with deep convolutional generative adversarial networks. In arXiv preprint arXiv:1511.06434. 
[3] Sharon Fogel, Hadar Averbuch-Elor, S. C. S. M.; and Litman, R. 2020. ScrabbleGAN: Semi-supervised varying length handwritten text generation. In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, 4324–4333.
[4] Marti, Z.-V.; and Bunke, H. 2002. The IAM-database: an English sentence database for offlfline handwriting recognition. International Journal on Document Analysis and Recognition 5(1): 39–46.
[5] Baoguang Shi, X. B.; and Yao, C. 2016. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence 39(11): 2298–2304.
[6] Bo Chang, Qiong Zhang, S. P.; and Meng, L. 2018. Generating handwritten Chinese characters using CycleGAN. In Proceedings of the IEEE Winter Conference on Applications of Computer Vision. 
[7] Christian Szegedy, Vincent Vanhoucke, S. I. J. S.; and Wojna, Z. 2016. Rethinking the Inception Architecture for Computer Vision. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2818–2826.  
[8] Eloi Alonso, B. M.; and Messina, R. 2019. Adversarial generation of handwritten text images conditioned on sequences. In International Conference on Document Analysis and Recognition, 481–486. 
[9] Florian Kleber, Stefan Fiel, M. D.; and Sablatnig., R. 2013. Cvl-database: An offlfline database for writer retrieval, writer identifification and word spotting. In International Conference on Document Analysis and Recognition, 560–564. 
[10] Graves, A. 2013. Generating sequences with recurrent neural networks. In arXiv preprint arXiv:1308.0850. 
[11] Harm de Vries, Florian Strub, J. M. H. L. O. P.; and Courville, A. C. 2017. Modulating early visual processing by language. In Advances in Neural Information Processing Systems, 6594–6604. 
[12] Hsin-Ying Lee, Hung-Yu Tseng, J.-B. H. M. S.; and Yang, M.-H. 2018. Diverse image-to-image translation via disentangled representations. In Proceedings of the European conference on computer vision, 35–51.
[13] Lei Kang, Pau Rib, Y. M. R.-A. F. M. V. 2020. GANwriting:Content-conditioned generation of styled handwritten word images. In Proceedings of the European conference on computer vision. 




原文作者 Ji Gan, Weiqiang Wang
撰稿:马继钊编排:高 学

审校:殷 飞

发布:金连文



免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。


扫描二维码,关注我们:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存